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摘 要 : [目的 /意义 ] 构建 一 种 基于 Word2Vec 和 CNN 的 产品 评论 细 粒 度 情感 分 析 模 型 。[ 方 法 /过 程 ] 首先 使 用 
Word2Vec 从 产品 评论 中 构建 产品 特征 词 列表 和 噪声 词 表 ,其 次 借助 噪声 词 表 来 进行 产品 评论 特征 词 的 提取 , 然 
后 采用 CNN 对 产品 评论 进行 产品 特征 层面 的 细 粒 度 情感 分 类 ,最 后 实现 基于 产品 特征 的 产品 评论 聚 类 。 [ 结果 / 
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论 ] 通过 个 取 京 东 商 城 华为 手机 评论 对 该 模型 进行 训练 和 测试 ,结果 表明 ,该 模型 能 够 有 效 实 现 产 品评 论 的 细 
度 情 感 分 析 , 可 以 有 效 地 发 现 用 户 对 产品 特征 的 关注 度 和 满意 度 。 


2 随 着 互联 网 技术 在 日 常生 活 中 的 广泛 应 用 ,人 们 
越 未 越 习 惯 于 通过 网 络 进行 购物 ,并 在 购物 平台 上 发 
春 圣 产品 的 相关 评论 ,而 这 些 评论 通常 以 文本 为 载体 
进 委 传播 。 企 业 通过 对 产品 评论 进行 情感 分 析 , 能 

党 手 用 户 对 其 产品 的 满意 程度 ,发 现 产 品 核心 优势 和 


Sh ,并 根据 用 户 评论 信息 适当 调整 产品 战略 ,这 


汪 来 说 是 新 的 机 遇 和 挑战 1 。 
相关 研究 与 工具 选择 


. 旺 情感 分 析 
_ 斧 情感 分 析 是 从 评论 文本 数据 中 识别 出 用 户 所 表达 
的 入 感 贷 向 的 过 程 。 情 感 分 析 可 以 分 为 粗 粒 度 情感 分 
析 和 细 粒 度 情感 分 析 两 种 。 

粗 粒度 情感 分 析 一 般 是 从 评论 文本 整体 层面 进行 
情感 极 性 分 析 , 针 对 整 条 评论 给 出 积极 或 者 消极 的 评 
价 。D. T. Vo 等 ”加 入 表情 特征 自动 构建 文本 的 情感 
词典 来 对 Twitter 文本 进行 情感 分 析 。D. Y. Tang 
等 中 通过 情感 种 子 扩充 特定 领域 情感 词 对 用 户 评论 进 
行情 感 分 类 。L、Zheng 等 中 利用 文档 频率 选择 特征 子 
集 ,结合 支持 向 量 机 对 中 文 产品 评论 进行 情感 分 析 。 

细 粒 度 情感 分 析 一 般 是 从 评论 文本 片段 或 者 特征 
层面 进行 情感 极 性 分 析 , 针 对 各 评论 文本 片段 或 者 特 


征 分 别 给 出 积极 或 者 消极 的 评价 。I，Titov 等 所 构建 
了 一 种 基于 多 粒度 LDA 的 情感 模型 ( multi-aspect sen- 
timent model, MAS) 。 孙 艳 等 "构建 了 一 种 无 监督 的 混 
合 情 感 模型 。Y，Kimm 将 卷 积 神经 网 络 应 用 到 多 个 情 
感 分 析 任 务 数据 集 上 ,并 取得 了 相当 优异 的 效果 。 李 
杰 等 ”采用 卷 积 神经 网 络 进行 短文 本 评论 情感 分 析 可 
以 为 产品 设计 人 员 进 行 产品 优化 改进 提供 决策 支持 。 

产品 评论 虽然 篇 幅 较 短 , 但 是 其 中 所 涉及 的 产品 
特征 并 不 唯一 ,而 且 用 户 对 各 产品 特征 的 态度 也 不 一 
致 ,因此 产品 评论 情感 分 析 适 合 细 粒度 的 情感 分 析 , 本 
文采 用 卷 积 神经 网 络 模型 实现 产品 评论 的 细 粒 度 情感 
分 析 。 
1.2 ”产品 评论 特征 词 提 取 

产品 评论 特征 词 提取 是 指 从 产品 评论 文本 中 提取 
有 户 评价 的 、 与 产品 特征 相关 的 词语 ,通常 包括 产品 的 
功能 .性 能 等 。 针 对 产品 评论 特征 词 提取 ,很 多 学 者 进 
行 了 相关 的 研究 。 余 传 明 等 "基于 支持 向 量 机 从 客户 
评论 文本 中 提取 产品 特征 词 。 徐 建 民 等 "在 本 体 库 
的 基础 上 ,利用 TF-IDF 方法 实现 了 对 文本 中 特征 词 的 
提取 。 夏天 中 将 词 向 量 技 术 融 入 TextRank 方法 ,提高 
了 特征 词 提取 的 效果 。 
随 着 深度 学 习 在 情感 分 析 领 域 的 广泛 应 用 ,基于 
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概率 的 浅 层 神经 网 络 模 型 悄然 兴起 " ，Word2Vec 是 
这 类 模型 的 佼佼 者 , 越 来 越 多 的 学 者 研究 使 用 
Word2Vec 进行 文本 特征 词 的 提取 。 李 跃 鹏 等 "使 用 
Word2Vec 技术 结合 kmeans 聚 类 方法 提出 一 种 特征 词 
提取 算法 。 周 顺 先 等 "使 用 Word2Vec 构建 词 向 量 聚 
类 质心 频率 模型 ,用 于 文本 的 特征 词 提取 。 

本 文 针 对 产品 评论 进行 细 粒 度 情感 分 析 , 产 品评 


论 特 征 词 提 取 是 细 粒 度 情感 分 析 的 重要 基础 ,因此 产 


Se 


1) 输 入 层 。 该 层 由 词 对 应 的 词 向 量 构成 的 矩阵 


加 4.00303v1 


0 


ENI(2 ) 卷 积 层 。 该 层 主要 功能 是 用 卷 积 核对 输入 层 
词 向量 矩阵 进行 卷 积 操作 ,得 到 更 次 层次 的 文本 特征 。 
>(3) 池 化 层 。 该 层 的 主要 功能 是 对 卷 积 层 提 取 到 


品评 论 特征 词 提取 的 效果 尤为 重要 ,本 文 尝试 使 用 
Word2Vec 来 进行 产品 评论 特征 词 提 取 , 着 力 提高 产品 
评论 特征 词 提取 的 效果 。 
1.3 ”CNN( 卷 积 神经 网 络 ) 

本 文选 择 CNN( convolution neural network , 卷 积 神 
经 网 络 ) ” ”作为 产品 评论 的 情感 分 类 器 。 图 1 为 用 
于 产品 评论 文本 分 类 的 CNN 模型 结构 ,CNN 模型 由 输 
人 层 、 卷 积 层 池 化 层 和 全 连接 层 组 成 。 


图 1 CNN 模型 结构 


层 的 词 ,其 中 输出 层 的 W 个 词 作为 叶子 结 点 存在 ,每 
个 结 点 表示 其 子 结 点 的 相对 概率 。 在 哈 夫 曼 树 中 ,从 
根 节 点 到 每 一 个 叶子 结 点 w 总 有 一 条 最 适当 的 路 径 
存在 。 

Skip-gram 模型 由 三 层 网 络 模型 构成 , 即 输 入 层 、 


多 本 向 量 进行 特征 选择 和 信息 过 滤 , 在 保留 主要 特 
的 同时 减少 下 一 层 的 参数 和 计算 量 ,防止 过 拟 合 。 

(4) 全 连接 层 。 该 层 主要 功能 是 将 从 池 化 层 得 到 
的 区 个 产品 评论 中 最 显著 的 文本 特征 所 对 应 的 特征 
值 钙 行 全 连接 操作 ,以 得 到 一 个 固定 长 度 的 特征 向 量 
来 表示 产品 评论 的 特征 ,将 特征 向 量 输入 到 最 后 的 
softmax Regression 分 类 器 中 ,从 全 局 的 角度 对 特征 进 
行 分 析 , 进 而 完成 产品 特征 评论 的 情感 分 类 。 
1.4 Word2Vec 

Word2Vect"” ”1 是 Google 2013 年 提出 的 一 种 词语 

语义 计算 技术 。 通 过 Word2Vec 训练 ,可 以 把 文本 内 容 
的 处 理 简 化 为 k 维 向 量 空间 中 的 癌 量 运算 , 癌 量 空间 
上 的 相似 度 可 以 用 来 表示 文本 语义 上 的 相似 度 。 
Word2Vec 提供 了 两 种 经 典 的 语言 模型 进行 训练 : 
CBOW 模型 和 Skip-gram 模型 。 针 对 这 两 个 模型 ， 
Word2Vec 给 出 了 两 个 框架 ,分 别 是 基于 Hierarchical 
Softmax 和 Negetive Sampling 来 进行 设计 ,本 文采 用 基 
于 Hierarchical Softmax 的 Skip-gram 模型 。 
Hierarchical Softmax 使 用 哈 夫 曼 树 结构 表示 输出 


投影 层 、 输 出 层 ,如 图 2 所 示 。Skip-gram 模型 的 训练 
目标 是 寻找 到 有 助 于 预测 句子 或 文档 中 周围 单词 的 单 
词 表示 。 


输入 层 投影 层 输出 层 


图 2 Skip-gram 模型 结构 


2 基于 Word2Vec 和 CNN 的 产品 评论 
细 粒 度 情感 分 析 模 型 


本 文 设 计 了 一 个 基于 Word2Vec 和 CNN 的 产品 评 
论 细 粒 度 情 感 分 析 模 型 ,包括 产品 评论 预 处 理 模块 . 产 
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品 特征 词 表 和 噪声 词 表 构建 模块 .产品 评论 特征 词 提 
取 模 块 产品 评论 情感 分 类 模块 .基于 产品 特征 的 产品 
评论 聚 类 模块 5 个 部 分 , 详 如 图 3 所 示 : 


| 


产品 评论 
特征 词 提取 


> 一 | 


乌 

区 

© [Tan i 

Oa 3 ”基于 Word2Vec 和 CNN 的 产品 评论 细 粒 度 
情感 分 析 模型 


〇 产品 评论 集中 往往 存在 一 些 无 意义 的 产品 评论 ， 
送 训 评论 中 不 包含 任何 特征 词 ,比如 只 包含 * 好 ”“ 差 
评 邓 不 错 ”“ 点 个 赞 "等 词 ,因此 过 滤 掉 这 些 无 用 的 产 
避 漳 论 有 利于 减少 噪声 干扰 提高 文本 情感 分 类 和 特 
征 负 提取 的 准确 率 。 
-三 由 于 中 文 不 像 英文 以 空格 作为 单词 之 间 的 分 隔 
答 @ 下 文 词汇 之 间 没有 明确 的 界限 ,因此 需要 先 对 产品 
评论 进行 中 文 分 词 和 词性 标注 ,以 词 作 为 产品 评论 的 
组 成 要 素 。 

产品 评论 分 词 和 词性 标注 完毕 后 ,还 要 借助 停 用 
词 表 去 除 产品 评论 中 的 常见 停 用 词 ,常见 停 用 词 包括 
“突然 "“ 立 刻 ”“ 不 但 “而且”“ 我 们 ”等 与 产品 特征 、 
情感 分 类 无 关 的 一 些 词 。 
2.2， 产品 特征 词 表 和 噪声 词 表 构建 
2.2.1 产品 特征 词 表 构建 

产品 特征 是 指 产品 所 具备 的 属性 或 功能 ,以 手机 
为 例 , 屏 幕 .外 观 、 内 存 摄像 头等 均 属于 手机 的 产品 特 
征 。 产 品 特征 词 表 是 构建 噪声 词 表 和 基于 产品 特征 的 
产品 评论 聚 类 的 依据 。 产 品 特征 词 表 构建 分 为 3 个 部 
分 : 

(1) 初 始 产品 特征 词 抽取 。 由 于 多 数 产 品 的 属性 
词 为 名 词 和 名 词 短 语 握 ] ,而 高 频 名 词 和 名 词 短 语 往往 


是 真正 的 特征 词 ,因此 本 文 对 预 处 理 后 的 产品 评论 中 
的 名 词 和 名 词 短 语 进行 词 频 统 计 , 人 工 从 中 抽取 前 m 
个 与 产品 特征 相关 的 高 频 名 词 和 名 词 短 语 作 特征 词 ， 
将 这 些 特征 词 按照 产品 特征 的 类 别 进行 分 类 ,构成 初 
始 产品 特征 词 表 Ts。 

(2) 词 向 量 训 练 。 词 间 相似 度量 可 以 方便 地 通过 
计算 词 向 量 的 余弦 距离 来 度量 ,因此 词 向 量 表示 了 语 
料 中 词 与 词 间 的 深层 语义 联系 。Word2Vec 是 以 由 文 
本 数据 构建 的 词汇 表 为 训练 数据 ,然后 学 习 词 的 高 维 
向 量 表 示 , 即将 词 映 射 至 有 限 维 的 高 维 空间 中 。 
Word2Vec 工具 对 进行 分 词 处 理 后 的 产品 评论 集 进行 
训练 ,可 以 获得 词 向 量 模型 以 及 每 个 词 的 指定 维度 的 
向 量 表示 。 词 向 量 既 可 以 用 于 产品 特征 的 提取 ,也 可 
用 于 卷 积 神经 网 络 的 输入 。 

(3) 产 品 特征 词 表 的 生成 。 描 述 同 一 产品 特征 的 
特征 词 可 能 不 是 一 个 ,例如 描述 手机 外 观 特征 的 特征 
词 有 外 观 、 外 观 设计 、 造 型 颜 值 .款式 等 ,因此 要 想 获 
取 较 为 全 面 的 特征 词 ,就 需要 对 特征 词 进 行 聚 类 。 本 
文 使 用 Word2Vec 训练 获得 的 词 向 量 模型 计算 产品 评 
论 集 中 不 同 词 与 初始 产品 特征 词 表 7, 中 的 每 个 特征 
词 之 间 的 相似 度 ,选择 与 每 个 产品 特征 词 相似 度 较 高 
的 前 n 个 与 产品 特征 相关 的 词 来 扩充 初始 产品 特征 词 
表 了 ,进而 完成 产品 特征 词 表 了 的 生成 。 

2.2.2 了 噪声 词 表 构建 

由 于 从 产品 评论 中 提取 的 特征 词 中 可 能 不 全 是 特 
征 词 ,其 中 包含 一 部 分 跟 产 品 特征 无 关 的 词 ,本 文 认为 
这 部 分 词 是 噪声 词 ,会 对 基于 产品 特征 的 产品 评论 聚 
类 过 程 产生 干扰 ,所 以 本 文通 过 构造 噪声 词 表 的 方式 
来 过 滤 从 产品 评论 文本 中 提取 的 特征 词 序列 ,去 除 其 
中 的 噪声 词 进而 正确 地 提取 产品 评论 特征 词 。 噪 声 词 
表 构 建 过 程 如 下 : 

输入 :产品 特征 词 表 7 和 产品 评论 集 D 经 过 
Word2Vec 训练 后 得 到 的 词 向 量 模型 

Stepl :从 TT 中 读 取 任 意 特征 词 w。 

Step2 :计算 与 w 相似 度 较 高 的 前 个 词 。 

Step3 :从 这 个 词 中 寻找 和 产品 特征 无 关 的 词 加 
人 到 噪声 词 表 2 中 。 

Step4 :重复 Stepl .Step2 和 Step3 ,直到 了 T 中 的 每 一 
个 产品 特征 词 都 处 理 完成 。 

输出 :噪声 词 表 Z。 

2.3 产品 评论 特征 词 提取 

本 文中 产品 评论 特征 词 提 取 方 法 基于 Hierarchical 

Softmax 的 Skip-gram 模型 实现 ,其 过 程 如 下 : 
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tn 
口 


Stepl : 读 取 D 中 的 任意 一 条 产品 评论 % ,其 中 (% 

;Wi ,Wnt| ,针对 S; 中 

的 每 个 词 w;, 计 算 其 p(wjlwi) ,其 中 j=1,2,… ,nk。 
Step2 :针对 5; 中 的 每 个 词 w ,计算 p(Si1w) ,其 中 


=1,2,.…,m) ,OF = | ao ) 202 ," 


nk 
Pp(Silw;) =p Ww ,1 ,** ,Ws Ww;) = [p(wlw) 


(1) 
Step3 :将 % 中 所 有 词 的 p(S,1w;) 降 序 排列 , 排 好 

序 的 前 个 词 选择 作为 5; 的 特征 词 。 
Step4 :重复 Stepl ,Step2 和 Step3 ,直到 D 中 的 所 有 
产品 评论 都 完成 特征 词 提 取 , 形 成 产品 评论 特征 词 列 
Step5 :使 用 噪声 词 表 2 过 滤 产 品评 论 集 D 所 对 应 
评论 特征 词 列表 Di, ,最 终 获 得 去 除 噪声 的 产品 

征 词 列表 D,。 

出 :产品 评论 集 D 所 对 应 产品 评论 特征 词 列表 


每 一 条 产品 评论 中 包含 的 产品 特征 可 能 不 是 一 
从 每 个 产品 特征 的 情感 标签 也 可 能 是 不 同 的 。 比 如 
“屏幕 足够 大 ,流畅 性 不 错 ,信号 不 错 ,但 是 电池 不 而 


等 ,而 用 户 表 达 对 某 一 产品 特征 观点 的 短 句 通 常 在 一 个 
分 隔 符 之 内 ,所 以 本 文采 用 基于 分 隔 符 分 割 的 策略 
(BSP)I ,将 每 一 条 产品 评论 分 割 成 多 个 短 句 ,然后 从 
多 个 短 句 中 过 滤 掉 不 包含 产品 特征 词 的 短 句 ,如 果 有 多 
条 短 句 描述 同一 产品 特征 则 将 其 合并 成 一 个 新 的 短 句 ， 
最 终 使 每 一 条 短 句 只 评价 一 种 产品 特征 。 产 品评 论 集 
D 中 的 评论 文本 经 过 分 割 后 形成 新 的 产品 评论 集 D, 。 
2.4.2 CNN 模型 训练 和 测试 

从 产品 评论 集 D, 中 提取 部 分 产品 评论 数据 作为 
训练 集 ,进行 CNN 模型 的 情感 分 类 训练 。 训 练 集中 的 
样本 已 通过 人 工 标注 形式 添加 了 情感 标签 ,使 用 CNN 
模型 计算 得 到 训练 样本 的 情感 标签 ,并 与 已 有 情感 标 
签 比较 ,利用 计算 误差 不 断 对 模型 参数 进行 调整 。 从 
产品 评论 集 D, 中 提取 另 一 部 分 产品 评论 数据 作为 测 


试 集 , 分 类 训练 完成 后 ,使 用 测试 集 对 CNN 模型 的 情 
感 分 类 效果 进行 评价 , 即 利 用 CNN 模型 计算 得 到 测试 
集中 产品 评论 的 情感 标签 ,并 与 其 人 工 标注 的 情感 标 
签 比较 。 

2.4.3 产品 评论 情感 分 类 

CNN 模型 完成 训练 和 测试 以 后 ,可 以 将 产品 评论 
集 D, 中 未 做 情感 标注 的 评论 文本 进行 情感 分 类 ,为 每 
一 条 产品 评论 添加 情感 标签 。 

2.5 基于 产品 特征 的 产品 评论 聚 类 

经 过 CNN 模型 的 情感 分 类 之 后 ,产品 评论 集 D， 
中 的 每 一 条 产品 评论 都 带 有 相应 的 情感 标签 ,其 中 的 
特征 词 也 带 有 相应 的 情感 标签 。 为 了 确定 每 条 产品 评 
论 对 哪 种 产品 特征 进行 了 积极 还 是 消极 的 情感 评价 ， 
本 文 首先 对 产品 评论 集 D, 中 的 每 一 条 产品 评论 进行 
特征 词 提 取 , 然 后 将 产品 评论 进行 基于 产品 特征 的 聚 
类 ,以 用 来 分 析 和 评价 用 户 对 产品 特征 的 关注 度 和 满 
意 度 。 基 于 产品 特征 的 产品 评论 聚 类 过 程 如 下 : 

输入 :产品 评论 集 D, 和 产品 特征 词 表 了 = 17 ， 
7,,…7 | ,其 中 工 代表 第 j 个 产品 特征 所 对 应 的 特征 
词 列表 。 

Stepl :提取 D, 中 每 一 条 产品 评论 的 特征 词 ,生成 
产品 评论 特征 词 列 表 D,j = | S51,S,,*…,S,|。 

Step2 : 读 取 Di 中 的 任意 一 行 S;,S,; = jz ， 
wi| ,其 中 (i=1,2,…,p)。 

Step3 : 读 取 5; 中 的 任意 特征 词 wi。 

Step4: 读 取 7 了 中 任何 一 个 7,T = 二， 
其 中 (j=1,2,… ,gq)。 

Step5 : 读 取 7 中 的 任意 特征 词 i,。 

Step6 :计算 w; 与 i 之 间 的 相似 度 Sim; 。 

Step7 :重复 Step5 、Step6 ,记录 其 中 的 最 大 值 max; 
=max( {Sim; ,Sim? ,Sim”| ) 。 

Step8 :重复 Step4 到 Step7, 计算 max (| max， ， 
maxs ,… ,maxi| ) ,可 以 确定 特征 词 w 所 属 的 特征 类 
别 。 

Step9 :重复 Step3 到 Step8 ,直到 $, 中 所 有 的 词 都 
读 取 完成 ,确定 评论 文本 5; 归属 的 产品 特征 类 别 。 

Step10 :重复 Step2 到 Step9 ,直到 Dj 中 所 有 行 处 
理 完成 。 

输出 :输出 各 产品 评论 所 属 产品 特征 类 别 。 


3 ”实验 与 结果 分 析 


3.1 实验 环境 
本 文 所 有 实验 均 在 表 1 环境 中 完成 。 
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感 分 析 模 型 [Jj. 图 书 情报 工作 ,2020 ,64(6) :49 -58. 


3.2 ”产品 评论 预 处 理 过 对 分 词 后 的 产品 评论 集中 的 词 进行 词 频 统计 ,选择 
本 文通 过 Python 语言 编写 网 络 候 虫 程序 采集 了 京 ”| 高 词 频 中 与 产品 特征 和 情感 词 无 关 的 词 来 构建 适合 
东 商 城 华为 手机 产品 评论 共 10 223 条 ,本 文 将 以 上 述 | 机 评论 的 停 用 词 表 ,并 使 用 该 停 用 词 表 对 分 词 后 的 产 
华为 手机 评论 集 为 例 进 行 模型 应 用 和 结果 分 析 。 品评 论 集 进行 去 停 用 词 处 理 。 
首先 ,对 一 些 无 意义 的 产品 评论 进行 清洗 ,最 终 过 | 3.3 产品 特征 词 表 和 噪声 词 表 构 建 
滤 后 的 得 到 产品 评论 集 共 9 230 条 。 3.3.1 词 向 量 训练 
表 1 ”实验 环境 与 配置 本 文 利用 进行 分 词 处 理 后 的 产品 评论 集 作为 词 向 
实验 环境 配置 参数 量 训 练 语 料 ,使 用 Python 语言 的 gensim 包 中 的 
操作 系统 Win7 Word2Vec 库 中 自 带 的 函数 来 训练 词 向 量 ,构建 词 向 量 
CPU Intel(R) Core(TM) i13-4130 3.40GHz 模型 。 表 2 为 Word2Vec 参数 设置 , 表 3 中 显示 的 是 产 
0 品评 论 集 中 部 分 词 的 词 向 量 : 
程序 设计 语言 Python 3.6 表 2 Word2Vec 参数 设置 
分 词 工具 jieba 参数 参数 值 
词 隔 量 训练 工具 Word2Vec( gensim?. 3.0) 算法 选择 (sg) Skip-gram 
编程 环境 Anaconda 词 向 量 维度 (size) 128 
词 频 最 小 值 ( min_count) 3 
OH 次 ,文中 实验 采用 Python 语言 的 jieba 分 词 包 对 “| 训 统 窗口 大 小 (window) l 
产 动 评论 集中 的 评论 文本 进行 分 词 并 标注 词性 。 并 行 线程 数 (workers) 当前 运行 机 器 的 处 理 器 核 数 
加 最 后 ,本 文 以 哈尔滨 工业 大 学 停 用 词 表 为 基础 , 通 
<+ 表 3， 词 向 量 列表 (部 分 ) 
一 
[ap ) 词 词 向 量 
CN 屏幕 —0.125 163 87 —0.024 804 92 0. 129 791 13 0. 123 645 24 0.212 407 13 
速度 —0.118 312 66 0.051 090 38 —0.001 206 69 0.009 693 74 0. 180 293 86 
加 图 电池 —0.141 637 13 0.163 745 14 0.049 230 19 0.212 385 18 0. 162 825 32 
> 外 观 -0.105 057 77 0.002 056 10 —0.021 922 46 —0.058 548 31 0.141 570 78 
Shi 此 一 0.086 082 29 0.03 331 02 0.039 414 20 —0.023 441 83 0. 141 992 39 
(摄像头 0.016 293 62 —0.004 493 70 0.239 8847 —0.118 341 22 —0.146 049 7 
CC 像素 0.048 881 55 0.107 083 5 0.056 056 09 —0.048 168 75 —0.102 540 2 


i 产品 特征 词 表 和 噪声 词 表 的 生成 
首先 对 预 处 理 后 的 产品 评论 集中 的 名 词 和 名 词 短 
语 进行 词 频 统计 ,并 抽取 其 中 前 200 个 与 手机 特征 相 
关 的 高 频 名 词 和 名 词 短 语 作 为 初始 产品 特征 词 ,将 这 
些 特征 词 按 照 产品 特征 的 类 别 进行 分 类 ,形成 初始 产 
品 特征 词 表 , 详 见 表 4; 其 次 使 用 Python 语言 的 gensim 
包 中 的 Word2Vec 所 自 带 的 函数 most_similar( ) 来 计算 
产品 评论 集中 的 名 词 和 名 词 短语 与 初始 产品 特征 词 之 
间 的 相似 度 ,在 与 产品 特征 词 相似 度 较 高 的 前 50 个 词 
中 选择 与 产品 特征 真正 相关 的 词 来 扩充 初始 产品 特征 
词 表 ,图 4 显示 的 是 与 特征 词 “ 网 络 ” 相 似 度 较 高 的 前 
50 个 词 的 计算 过 程 , 结 果 见 表 5; 然 后 从 表 5 中 选择 与 
“网 络 ” 相关 的 词 扩 充 到 初始 产品 特征 词 表 中 ,生成 产 
品 特征 词 表 , 详 见 表 6; 最 后 在 产品 特征 词 表 基础 上 构 
种 噪 声 词 表 , 详 见 表 7。 
表 6 中 的 每 一 行 表 示 一 种 产品 特征 及 其 所 对 应 的 


特征 词 列 表 , 表 7 中 的 每 一 行 表示 一 种 产品 特征 及 其 

相关 的 噪声 词 列表 ,产品 评论 共 涉 及 屏幕 性能、 网 络 、 

摄像 头 电池、 外 观 、 功 能 .通话 质量 配件 10 类 特征 。 
表 4 ”初始 产品 特征 词 表 ( 部 分 ) 


产品 特征 初始 产品 特征 词 
屏幕 ”屏幕 \ 分 辩 率 \ 触 屏 \ 色 彩 \ 画 面 \ 全 屏 \ 屏 幕 显示 \ 斜 纹 \ 清 晰 度 


电池 电池 \ 电 量 \ 充 电器 \ 待 机 \ 待 机 时 间 \ 手 机 电池 \ 小 时 
网 络 信号 \ 网 络 \ 网 页 \ 网 速 


import numpy as np 


import gensim 
model = gensim.models.word2vec.Word2Vec.load('. datal /word2vec/data model) 
y2= model.most_similar(u" 网 后 "topn=S0) 
Print(" 和 【网 最 相关 的 词 有 : \n") 
print(" 候 选 特 征 词 相似 度 ") 
for item in y2: 
print('%s "of %(item[0],item[1])) 


图 4 Word2Vec 产品 特征 词 聚 类 
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表 5 “网 络 ” 特 征 相关 的 候选 特征 词 表 6 产品 特征 词 表 (部分) 

候选 词 相似 度 候选 词 相似 度 候选 词 相似 度 产品 特征 产品 特征 词 

信号 0.954 357 ”技术 员 0.768 731 ”稳定 性 0.739 962 屏幕 ”屏幕 \ 分 辩 率 \ 触 屏 \ 色 彩 \ 画 面 \ 全 屏 \ 屏 幕 显示 \ 液 晶 \ 侈 和 度 \ 
手机 信号 ”0.942 106 信息 0.765 410 重 影 0.737 712 网 格 \ 拖 影 \ 视 觉 效 果 \ 阴 影 \ 显 示 屏 \ 斜 纹 \ 霸 屏 \ 密 度 \ 色 温 

\ 颗 粒 \ 清 晰 度 \ 灵 敏 度 \ 色 差 \ 主 屏 \ 内 屏 外 屏 \ 前 屏 \ 色 调 

电信 卡 0.904 950 接收 器 。 ”0.763 482 网 页 0.737 200 

i ee 电池 电池 \ 小 时 \ 电 量 \ 充 电器 \ 待 机 \ 待 机 时 间 \ 手 机 电池 、\ 

人 电池 容量 \ 用 电量 \ 温 度 \ 耗 电量 \ 费 电 \ 用 电 \ 低 电量 \ 发 热量 

2 网 络 。 信号 \ 手 机 信号 \ 断 网 \ 无 线 \ 无 线 网 络 \ 无 线 网 \ 网 络 连 接 
通话 质量 ”0.865 511 ”信号 强度 ”0.758 529 音色 0.733 752 \ 链 接 \ 热 点 \ 信 号 强度 \ 流 量 \ 网 页 \ 网 速 \ 接 收 器 

参数 0. 835 826 流量 0.757 990 平板 0.732 208 

品 志 启 去 1 立 

隧道 0.833 678 工程 。 0.751 472 单 卡 0.723 977 表 7 噪声 词 表 ( 部 分 ) 

断 网 0.822136 ”一 格 ”0.751411 界面 显示 0.717 993 产品 特征 噪声 词 

断 流 0.806 004 手 环 0.748 245 ”运营 商 。 0.716 717 屏幕 英寸 \ 宽 度 \ 视 野 \ 模 组 \ 物 体 \ 文 件 夹 \ 风 格 \ 光 线 

无 线 0.793 062 主 卡 0.747 787 数据 ”0.716 339 电池 能 力 \ 强 度 \ 电 子 书 \ 游 戏 \ 大 陆 \ 电 玩 
无 线 网 络 ”0.792 115 g 件 “0.745350 ” 熄 屏 ”0.712 905 网 络 路 线 \ 隧 道 \ 断 流 \ 主 卡 \ 电 梯 \ 运 营 商 

无 线 网 0.784 521 面子 。 0.745 085 视频 。 ”0.712 050 、 

国 3.4 产品 评论 特征 词 提 取 
i 0.779 664 重度 0.744 010 网 速 0.711 658 
HE x 多 可 [重量 柑 刑 担 胞 每 

rt O970d86 莉 作 让 5 人 0 (1) 借 助 于 已 经 训练 好 的 词 向 量 模型 ,提取 每 
Ci 0.770 942 下 文 0.742 024 耳麦 0.710 408 条 产品 评论 中 所 包含 的 产品 评论 村 征 词 ,形成 产品 评 
情侣 程序 ”0.768 898 。 讲话。 0.740 15 论 集 所 对 应 的 产品 评论 特征 词 列表 ,如 表 8 所 示 : 


人 


© 表 8 产品 评论 特征 词 列 表 ( 部 分 ) 


产品 评论 产品 评论 特征 词 
CFT。 京东 物流 真 的 很 给 力 , 上 午 快 11 点 下 单 ,下 午 就 送 到 了 。 头 一 次 尝试 订 漆 系列 ,宝贝 不 错 ,屏幕 做 的 很 给 力 ,分 辨 率 也 很 ” 鹿 腾 \ 处 理 器 \ 速 度 \ 
i ,这 个 价位 有 这 样 的 机 子 ,真心 不 错 , 用 良 腾 的 处 理 器 速度 也 很 快 。 网 评 这 款 处 理 器 听 插 不错 的 。 后 期 看 看 用 起 来 会 不 会 卡 ,好 “分辨 率 \ 网 评 \ 屏 幕 \ 

全 就 以 后 可 以 支持 华为 系列 啦 ; 机 子 
外 观 淋 亮 ,黑色 版 本 的 ,屏幕 色彩 也 很 鲜艳 ,屏幕 大 而 机 身 轻 薄 ,手机 运行 速度 也 比较 快 ,很 对 得 起 这 个 价格 ,值得 推荐 ,京东 物流 ”黑色 \ 外 观 \ 速 度 \ 屏 
(@B 半 别 快 , 先 一 个 ; 幕 \ 色 彩 \ 版 本 \ 机 身 
大 绒 信 号 太 弱 , 无 法 忍受 , 坐 在 同一 位 置 手 机 离 远 与 离 近况 然 相 两 格 ,路 由 器 隔 墙 的 情况 下 。 这 与 发 布 会 上 说 的 高 铁 不 掉 线 也 差距 ”信号 \ 无 线 \ 路 由 器 
国 吧 ? 

人 (2 ) 使 用 噪声 词 表 过 滤 产 品评 论 特征 词 列表 中 的 所 示 : 

品 逢 词 ,生成 去 除 噪声 的 产品 评论 特征 词 列表 ,如 表 9 
Es 表 9 去 除 噪声 的 产品 评论 特征 词 列表 ( 部 分 ) 
产品 评论 产品 评论 特征 词 

评价 晚 了 。 京 东 物 流 真 的 很 给 力 , 上 午 快 11 点 下 单 ,下 午 就 送 到 了 。 尖 一 次 尝试 荣 炊 系列 ,宝贝 不 错 ,屏幕 做 的 很 给 力 ,分辨 率 也 很 ” 麒 租 \ 处 理 器 \ 速 度 \ 
好 高 ,这 个 价位 有 这 样 的 机 子 ,真心 不 错 ,用 户 脱 的 处 理 器 速度 也 很 快 。 网 评 这 球 处 理 器 挺 不 错 的 ; 分 辩 率 \ 屏 幕 
手机 外 观 漂亮 ,黑色 版 本 的 ,屏幕 色彩 也 很 鲜艳 ,屏幕 大 而 机 身 轻薄 ,手机 运行 速度 也 比较 快 , 很 对 得 起 这 个 价格 ,值得 推荐 ,京东 物流 “黑色 \ 外 观 \ 速 度 \ 屏 
也 特别 快 , 赞 一 个 ; 幕 \ 色 彩 

无 线 信号 太 弱 ,无 法 忍受 , 坐 在 同一 位 置 手机 离 远 与 离 近 竟 然 相差 两 格 ,路 由 器 隔 墙 的 情况 下 。 这 与 发 布 会 上 说 的 高 铁 不 掉 线 差距 也 ”信和 号 \ 无 线 
太 大 了 吧 ? 

为 了 便于 与 已 有 的 特征 词 提 取 方 法 对 比分 析 , 本 | 2xPxR (2) 
P+R 


文采 用 精准 率 (Ps)、 召 回 率 (Rs) 和 也 值 
(下 a) 作为 特征 词 提取 效果 的 评估 标准 ,Ps、 
Rw 和 了 l,i 的 计算 方法 如 公式 (2) 所 示 "”” ,其 中 必 
表示 第 i 条 产品 评论 通过 特征 提取 方法 提取 出 来 的 特 
征 词 集 合 ,d; 表示 第 i 条 产品 评论 自身 所 附带 的 特征 


采矿 
词 集合 ,M 表示 待 处理 产品 评论 集中 产品 评论 数量 。 


uleN dl u |cN dl 

ft le,l 1 ld,l 
extract » extract ? Fl vr > 
A M A M extract 


从 产品 评论 集中 选取 500 条 产品 评论 ,分 别 使 用 
TFIDF 方法 .TextRank 方法 和 本 文 的 特征 词 提取 方法 
进行 处 理 ,3 种 方法 设 定 特征 词 提取 的 数量 为 2 - 10 
个 ,分 别 计 算 Ps Rw 和 下 3 个 评估 指标 ,然后 
进行 对 比 , 最 终 的 结果 见 图 5 .图 6 和 图 7。 

从 图 5 ,图 6 和 图 7 可 以 看 出 ,在 使 用 本 文 的 特征 
词 提取 方法 进行 特征 词 提取 时 ,分 别 设置 不 同 的 特 外 
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词 提 取 数 量 ,其 精准 率 (Pi) 和 下 值 (Fl. ) 均 优 
于 TR-IDF 方法 、TextRank 方法 ,召回 率 ( Rs ) 在 特征 
词 数量 为 8 - 10 时 也 与 TF-IDF 方法 、TextRank 方法 持 
平 。 所 以 针对 产品 评论 这 类 短文 本 ,使 用 本 文 的 基于 
噪声 词 表 过 滤 的 特征 提取 方法 进行 特征 提取 效果 较为 
显著 。 


全 一 全 一 站 一 全 一 全 一 全 一 全 一 全 一 起 
09 
殷 一 4 一 TF-IDF 
兵 07 | 轩 生 -= 和 -= 
06 一 国 一 TextRank 
0.5 1 一生 一 本文 方法 
2 
特征 词 数 量 
图 5 精准 率 
> 09 
0.8 
OO¥ 0 一 人 一 TF-IDF 
CGOR 06 一 器 一 TextRank 
= 05 一 在 一 本 文 方法 
图 
特征 词 数量 
CO 图 6 召回 率 Rowow 
名 
1 
= 
mm 7 一 一 TF-IDF 
SC 06 一 加 一 TextRank 
人 | ，，，，，，， | 一 本 文 方法 
4 从 
[T 
,全 特征 词 数量 
图 7” Fl1 值 Fl,o 
3.5 产品 评论 情感 分 类 


CNN 模型 开始 训练 前 ,需要 确定 其 参数 。CNN 模 
型 主要 具有 以 下 参数 : 由 卷 积 核 尺 寸 ， 即 对 输入 词 向 


量 进行 卷 积 的 区 域 大 小 。 词 语 作为 最 小 语言 单位 不 做 
划分 ,只 需要 考虑 语 境 上 下 文 的 影响 ,因此 卷 积 核 宽度 
保持 最 大 不 变 ,只 改变 卷 积 核 高 度 。 包 卷 积 核 数量 。 
(3)dropout 比例 , 即 取 值 置 为 0 的 数据 比例 。@ 岂 随机 梯 
度 下 降 算法 的 批量 值 。 本 文采 用 网 格 搜索 法 ”确定 
以 上 参数 ,而 随机 梯度 下 降 算法 的 学 习 率 使 用 Adadel- 
ta 更 新 规则 进行 自 适 应 调整 ,最 终 确 定 的 参数 取 值 见 
表 10。 


表 10 卷 积 神经 网 络 ( CNN ) 参数 设置 


参数 参数 值 
卷 积 核 尺 寸 (kernel_size ) (3,128) ,(4,128) ,(5,128) 
卷 积 核 数量 256 
dropout 比例 0:5 
批量 值 (batch_size) 64 


首先 将 产品 评论 集中 的 每 一 条 产品 评论 进行 分 
割 , 分 割 结果 详 见 表 11 ,然后 将 分 割 后 的 产品 评论 集 
进行 预 处 理 , 并 按照 6:2:2 的 比例 划分 为 训练 集 、 验 证 
集 和 测试 集 3 部分。 训练 集 作 用 是 用 来 拟 合 模型 , 通 
过 设置 分 类 器 的 参数 ,训练 分 类 模型 ;验证 集 的 作用 是 
使 用 训练 出 来 的 模型 对 验证 集 数 据 进行 预测 ,用 来 调 
整 模型 参数 , 选 出 效果 最 佳 的 模型 所 对 应 的 参数 ;测试 
集 作 用 是 使 用 训练 好 的 CNN 模型 为 未 做 情感 分 类 的 
产品 评论 进行 情感 分 类 。 

情感 分 类 实验 结果 评价 指标 选择 信息 检索 领域 传 
统 的 精准 率 ( Precision ) 召回 率 (Reca ) Fl 值 (F1- 
score) 5 。 设 置 SVM 和 NB(Naive Bayes ) 两 个 对 照 实 
验 组 ,与 CNN 进行 对 照 ,计算 Precision、Recall 和 Fl- 
score 指标 ,比较 三 种 分 类 器 的 性 能 。CNN 情感 分 类 结 
果 和 对 照 实验 的 对 比 结果 详 见 表 12。 从 表 12 可 以 看 
出 ,在 Precision 、Recall 和 Fl1-score 方面 ， CNN 对 产品 评 
论文 本 进行 情感 分 类 的 效果 更 好 。 


表 11 产品 评论 分 割 ( 部 分 ) 


产品 评论 分 割 后 的 产品 评论 
评价 晚 了 。 京 东 物 流 真 的 很 给 力 , 上 午 快 11 点 下 单 ,下 午 就 送 到 了 。 头 一 次 尝试 荣 焰 系列 ,宝贝 屏幕 做 的 很 给 力 
不 错 , 屏 幕 做 的 很 给 力 ,分 辩 率 也 很 好 高 ,这 个 价位 有 这 样 的 机 子 , 真 心 不 错 ,用 腊 腾 的 处 理 器 速度 分 辨 率 也 很 好 高 


也 很 快 。 网 评 这 款 处 理 器 挺 不 错 的 ; 


手机 外 观 漂亮 ,黑色 版 本 的 ,屏幕 色彩 也 很 鲜艳 ， 
得 起 这 个 价格 ,值得 推荐 ,京东 物流 也 特别 快 , 赞 一 个 ; 


无 线 信号 太 弱 ,无 法 忍受 , 坐 在 同一 位 置 手机 离 远 与 离 近 竟然 相差 两 格 ,路 
与 发 布 会 上 说 的 高 铁 不 掉 线 差距 也 太 大 了 吧 ? 


屏幕 大 而 机 身 轻 薄 , 手 机 运行 速度 也 比较 快 ,很 对 


器 隔 墙 的 情况 下 。 这 


用 有 鹿 腾 的 处 理 器 速度 也 很 快 ,网 评 这 款 处 理 器 挺 不 错 的 
手机 外 观 漂亮 ,黑色 版 本 的 
色彩 也 很 鲜艳 ,屏幕 大 而 机 身 轻薄 

手机 运行 速度 也 比较 快 


屏幕 


无 线 信号 太 弱 
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3.6 ”基于 产品 特征 的 评论 聚 类 
产品 评论 集中 的 评论 文本 经 过 分 割 后 会 生成 产品 
评论 短 句 集 ,这 些 短 句 经 过 CNN 模型 情感 分 类 后 ,每 
一 条 短 名 中 描述 的 产品 特征 就 带 有 相应 的 情感 标签。 
表 12 情感 分 类 实验 对 比 结果 


分 类 模型 准确 率 (P) 召回 率 (R) Fl 值 
NB 82.52% 82.46% 82.47% 
SVM 83.43% 83.29% 83.28% 
88.39% 87.27% 


CNN 86.27% 
使 用 Python 语言 的 gensim 包 中 Word2Vec 自 带 的 simi- 


larity( ) 函数 计算 每 条 短 句 中 包含 的 特征 词 与 表 6 中 
各 类 产品 特征 的 特征 词 之 间 的 相似 度 , 选 择 其 中 相似 
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性 能 ”网络 ”摄像 关 ”电池 


手机 特征 评论 数量 ( 条 ) 
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3. > 实验 结果 分 析 
> 图 8 和 图 9 展示 了 用 户 对 华为 手机 特征 的 相关 评 
En 
重 综 关注 的 产品 特征 是 屏幕 ,性 能 .外 观 、 功 能 。 从 图 
9 可 以 看 出 ,用 户 对 手机 性 能 和 外 观 的 满意 度 较 高 ,在 
网 络 .通话 和 配件 方面 用 户 诉 病 很 多 ,屏幕 .摄像头 . 电 
池 方 面 用 户 评论 好 坏 参 半 。 

在 性 能 方面 ,华为 自主 研发 的 肤 鹿 系列 处 理 器 性 
能 接近 高 通 驹 龙 系列 处 理 器 , 同 价位 的 华为 手机 配置 
相对 要 高 于 其 他 品牌 手机 ,因此 手机 性 能 较为 点 越 ;在 
外 观 方面 ,华为 的 荣耀 系列 采用 炫 彩 的 玻璃 机 身 设 计 ， 
时 尚 、 漂 亮 ,符合 年 轻 人 的 审美 需求 , 深 受 年 轻 人 的 喜 
爱 。 对 于 此 类 产品 特征 ,设计 人 员 可 以 保持 设计 方案 。 

华为 莱卡 摄像 头 的 出 现 很 符合 用 户 需求 ,但 是 拍 
照 反 应 迟钝 ,夜间 成 像 的 效果 有 待 改 进 ;用 户 对 手机 屏 
幕 的 校准 .指纹 识别 .灵敏 度 不 高 和 易 碎 等 问题 关注 较 
多 ;在 功能 方面 ,缺少 双击 锁 屏 .NFC、 指 纹 支付 等 功 
能 ;在 电池 方面 ,用 户 普遍 反映 电池 容量 4000mAh ,但 


外 观 ”功能 ”通话 


度 最 大 的 作为 当前 短 句 的 归属 特征 类 别 ,进而 将 各 产 
品评 论 基 于 产品 特征 进行 聚 类 ,并 进行 相关 统计 分 析 ， 
统计 结果 详 见 如 图 8 和 图 9 所 示 : 


质 基 配件 屏幕 
通话 6% 5% 13% 
EN 


8 手机 特征 评论 分 布 


加 积极 评价 
消极 评价 


朋 am 
质量 ”配件 


9 华为 手机 特征 评论 情感 倾向 


点 进行 改进 。 

对 于 网 络 .通话 和 配件 这 种 消极 评价 较 多 的 产品 
特征 ,设计 人 员 应 迅速 寻 原 因 加 以 改进 。 例 如 ,用 户 反 
映 手机 接收 Wf 信号 能 力 差 .切换 4G 网 络 也 经 常 出 
现 卡 顿 、 玩 游戏 经 常 掉 线 等 问题 ,由 于 华为 主 车 业务 为 
通讯 ,用户 对 手机 网 络 这 一 产品 特征 期 望 会 比较 高 ;在 
通话 方面 ,用 户 更 多 地 反映 有 噪声 .音质 不 清晰 音量 
小 等 问题 ; 男 一 方面 ,按键 .耳机 、 听 简 、 保 护 膜 等 配件 
较为 容易 损坏 。 设 计 人 员 可 以 通过 改进 网 络 、 通 话 和 
配件 方面 的 问题 来 进一步 提升 手机 的 竞争 力 。 

在 网 络 盛行 的 今天 ,网 络 平台 上 充斥 着 大 量 的 产 
品评 论 ,产品 评论 的 细 粒 度 情 感 分 析 对 用 户 和 企业 来 
说 显得 尤为 重要 。 一 方面 ,用 户 通过 对 产品 评论 进行 
细 粒 度 情 感 分 析 , 可 以 了 解 到 其 他 用 户 的 使 用 经 验 以 
及 对 产品 相关 特征 的 评价 ,更 有 利于 用 户 在 购买 产品 
时 做 出 正确 的 决策 ; 另 一 方面 ,产品 的 口碑 对 企业 来 说 
至 关 重 要 ,正面 的 口碑 有 助 于 企业 产品 的 推广 和 销售 ， 
负面 的 口碑 则 会 损害 企业 的 形象 。 因 此 企业 通过 对 产 


没有 想象 的 那么 好 ,好 像 3200mAh ,续航 较 差 .充电 发 
热 较为 严重 。 设 计 人 员 应 在 保持 优点 的 同时 尽快 对 缺 


品评 论 进行 细 粒 度 情感 分 析 , 可 以 动态 掌握 用 户 对 产 
品 的 口碑 变化 , 当 负 面 口碑 出 现时 ,能 够 及 时 预警 并 做 
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好 应 对 措施 ,减少 对 企业 的 影响 。 


本 文 对 在 线 产 品评 论 情感 分 析 问 题 进行 了 研究 ， 
提出 了 一 种 基于 Word2Vec 和 CNN 的 产品 评论 细 粒 度 
情感 分 析 模 型 。 模 型 实现 了 产品 评论 的 特征 词 提取 、 
产品 评论 特征 层面 的 情感 分 类 ,并 在 此 基础 上 实现 了 
基于 产品 特征 的 产品 评论 聚 类 分 析 。 该 模型 能 够 实现 
产品 评论 的 细 粒 度 情感 分 析 , 比较 全 面 地 捕获 产品 评 
论 中 的 产品 特征 的 情感 信息 ,可 以 较 高 效 地 从 产品 评 
论 中 挖掘 出 用 户 对 产品 特征 的 关注 度 和 满意 度 ,为 企 
业 管 理 和 决策 提供 服务 。 

本 文 的 创新 点 在 于 ,针对 产品 评论 这 类 短文 本 的 
特此 ,提出 一 种 使 用 Word2Vec 技术 的 基于 噪声 词 过 滤 
的 这 品评 论 特 征 词 提取 方法 ,该 方法 不 仅 充分 考虑 到 
也 BB 下文 语义 信息 ,而 且 进 一 步 提高 了 产品 特征 词 提 
肛 的 效果 ;对 产品 评论 在 产品 特征 层面 进行 了 情感 分 
将 带 有 情感 分 类 标签 的 产品 评论 进行 基于 产品 
特征 的 聚 类 ,有 利于 对 产品 特征 情感 倾向 的 分 析 , 该 模 
型 滔 产品 评论 细 粒 度 情感 分 析 提 供 了 一 种 有 效 思路 。 
楷 交 对 产品 评论 采取 的 是 情感 二 分 类 方法 ,对 情感 借 
所 通行 了 积极 与 消极 的 判断 ,未 来 可 深入 研究 如 何 实 
更 济 感 多 分 类 ,实现 对 情感 强度 的 判断 。 
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A Fine-grained Sentiment Analysis Model for Product Reviews Based on Word2Vec and CNN 
Cai Qingping Ma Haiqun” 
! School of Information Management, Heilongjiang University, Harbin 150080 

? Research Center of Information Resource Management, Heilongjiang University, Harbin 150080 
Abstract: | Purpose/significance | To construct a fine-grained sentiment analysis model for product reviews 
based on Word2Vec and CNN. | Method/process| This paper firstly applied Word2vec to build product feature vo- 
cabulary and noise vocabulary based on product reviews, secondly extracted the feature words from product reviews by 
the noise vocabulary, then classified the product reviews according to product features sentiment, finally realized 
product reviews clustering based on product features. | Result/conclusion | The model was trained and tested by the 
reviews of Huawei mobile phone on JingDong Mall ,the results showed that the model could effectively realize fine- 

grained sentiment analysis of product reviews and find out users focus and satisfaction on product features. 


Keywords: sentiment analysis product reviews CNN Word2Vec fine-grained 
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O IFLA WLIC 2020 信息 素养 专题 会 议 征文 


《 

1 会 议 简介 : 
3 ITLA WLIC 2020 将 于 2020 年 8 月 15 日 至 22 日 在 爱尔兰 都 柏林 举行 ,期 间 信息 素养 分 会 和 学 校 图 书馆 分 会 
P (The IFLA Information Literacy Section and the School Libraries Section ) 共同 主办 的 公开 会 议 。 会 议 主题 “信息 素养 : 
23C 教育 在 促进 学 习 者 在 整个 正规 教育 过 程 中 平稳 过 渡 的 作用 ”。 : 
pb 信息 素质 教育 贯穿 于 学 习 者 从 小 到 大 及 以 后 的 各 个 阶段 ,图 书馆 员 如 何 建立 伙伴 关系 ,以 使 学 习 者 的 信息 素 人 
己 养 教育 在 任何 地 方才 能 进行? 该 小 组 会 议 将 讨论 公共 图 书信 ,学 术 图 书 销 和 学 校 图 书馆 如 何 通过 此 于 课 各 的 信息 。 
全 素养 教育 ,共同 提高 学 习 者 的 信息 素养 技能 。 : 
。 会 议 对 探讨 以 下 问题 的 论文 特别 感 兴趣 : | 
具体 技能 框架 ,包括 调查 过 程 和 工 技 能 ,使 正规 教育 内 部 和 外 部 的 平稳 过 渡 成 为 可 能 ; ‘ 
。 图 书馆 员 ( 公 共 学校 ,学 术 ) 与 其 机 构 之 间 的 合作 ; : 
《 

《 

《 

《 

《 


。 图 书馆 在 信息 技术 教学 中 的 合作 ; 

。 从 小 学 到 中 学 的 过 渡 ,最 好 是 从 小 学 和 中 学 的 角度 ; 

。 从 中 学 过 渡 到 正规 教育 ( 即 过 滤 到 校外 生活 ) ; 

。 从 中 学 到 大 学 的 过 渡 ; 

在 "中间 ”地 区 (如 从 工作 人 员 到 学 院 , 从 学 院 到 工作 人 员 、 从 年 级 到 年 级 过 渡 等 ) 教 授 开 技能 。 
2 征稿 时 间 
2020 年 4 月 2 日 :提案 提交 截止 日 期 
2020 年 4 月 30 日 :作者 接受 状态 通知 

2020 年 5 月 31 日 :全文 提交 截止 日 期 

征文 详情 参见 会 议 网 址 : https://2020. ifla. org/ cfp-calls/information-literacy-joint-with-school-libraries/ 


eV Ys Ys 
@ 


| 
| 
， 
， 
， 
， 
， 
， 
， 
， 
， 
， 
， 
| 


